Полводные камни 


высокодоступных инсталляций ОПР СУБД 
в облачном окружении 


Андрей Бородин | ff 


Дмитрий Смаль 


\ 
\ 
- 
- 
- 
- 
- 
Ыы 
і - 
зі 
- 
- 
е 


ці HighLoad++ 2 | 


Весна 2021 


0 Yandex Cloud 


Подводные камни высокодоступных 
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Дмитрий Смаль, руководитель подразделения Managed MySQL и SOL Server 


Managed Service for PostgreSQL 
Managed Service for MySQL 
Managed Service for MongoDB 


Many more DBS 


Yandex.Cloud Data Platform 


PostgreSQL в Яндексе 


| Яндекс.Почта 
> Сколько-то сотен миллионов пользователей 


> 1+ триллион строк, 1+ миллион запросов в секунду 


[| Яндекс.Облако 
> Несколько петабайт Постгреса 


> з+миллиона запросов в секунду 


MySQL B Яндексе 


| Яндекс.Директ 


| Managed MySQL 
> 400+ TB (апрель 2021) 


__PGConf.Russia 2021 


> Эксплуатация высокодоступных РСУБД с открытым исходным 
кодом в облачном окружении 


https://pgconf.ru/2021/281357/ 


httops://clek.ru/UjAjt 


Что нужно 


> Доступность 0.9999 в месяц начтение 
> Доступность 0.9995 в месяц на запись 
> Масштабируємость в нескольких зонах доступности 


> Актуальная копия данньх в аналитической системе 
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Виртуализация 


Вертикальное масштабирование 


| Избъточность 


Топология кластерав Облаке 


Үапаех 
| WAL Object 
RW Queries Storage 
4 ы. me ө Logical replicatio 
= уа ШІ Ішін zE У Р 
OLAP\MR 
Sync/Quorum replication 7 „ок ыы 
КО Queries 
«п "зе 


15 


Как клиенту найти, куда слать пишущие 
запросы? 


р541 “hostashost 1 FQDN>,<host 2 FQDN>,<host 3 FQDN>N\ 
port=6432 \ 


sslmode=verify-full \ 
dbname=<DB name> \ 


user= \ 
target_session_attrssread-write”, 


https://cloud.yandex.com/docs/managed-postgresal/operations/connect ы 


Пишущие запросы при частичном отказе 


Timeout bl - это важно 


| tcp_user timeout 


В ора есть бесконечные ожидания, где оно полагается на 
кеера!мез операционной системы 


| keepalives_count, keepalives_interval, keepalives_idle 
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Чтение со Standby 


Проблемы 


> Возможен каскадный отказ 


> Неконсистентные данные (как из прошлого, таки из 
будушего) 


> Коноликт репликации 


> Плохо масштабирующийся Кпоу/пА55іапеахіаз 


пе gI 


Overhead 


VIEW еагс er mind 


Shared Object 
postgres 
postgres 
postgres 
postgres 
postgres 


Ae 
Samples: 8K of event " сус|ез:и, 4000 Hz, Event count (approx.): 2838883692 
Symbol 

|. | KnownAssignedXidsGetAndSetXmin 


|. | Базе yyparse 

|. | bt compare 

|. | AllocSetAlloc 

|. | hash search with hash value 
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Отмена запроса 
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Гарантии синхронной репликации 


Partitioned primary node 


Sync replication 


| арантии нарушаются 


> Хитрой отменой запроса 
> Перезапуском primary нодь 


> Падением бзкенда 
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Disable cancellation of executed locally query 


| ALTER SYSTEM SET synchronous_commit_cancelation to off; 


https://commitfest.postgresal.org/31/2402/ 


Но это только частичное решение 


| Рестарт мастера по-прежнему делает нереплицированные 
данные - видимыми. Проблему надо решать на стороне НА- 
систем. 
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Больше информации попроблеме 


B конспекте PGCon unconference 2020 


https://wiki.postgresal.org/wiki/PgCon 2020 Developer Unconference 


/Едае cases of synchronous replication іп НА solutions 


Changed data capture 


Логическая репликация на мастере 
Е; 


Network 
| WAL Object 

RW Queries Storage 
= 774 me ө Logical replicatio 
= el ШІ Ішін zE У Р 
OLAP\MR 

SYNC replication < „ок крш 
КО Queries 
«п "зе 
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Для логической репликации нужен слот 


Логическая репликация запускаєтся с LSN слота. 
| Но слот можно создать только на текущем LSN, не в прошлом. 


Невозможно создать слот в TOM же | УМ, где произошёл failover. 


Hack the PostgreSQL 


Мы просто создали расширение ра іт айх, которое создаёт слот в 
прошлом 

> Есть риск catalog vacuum после переключения мастера 

> Hna PG 10,11,12,13,14 других вариантов уже точно не будет 


> Ноесть надежда на светлое будущее 
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Synchronous standby names 


Логическая репликация может быть впереди 


> Синхронной реплики 


> Кворума 
Возможно стоит создать post_ synchronous standby names? 
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MySQL 


Модельконсистентности 


| Read Your Writes 
> Использование синхронной / кворумной репликации 


> Записьичтениес мастера 
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Синхронная репликация в MySQL 


REPLICA 1 


РКІМАКҮ 


«ть» | 
NO ACE ет 
TŘ е” 


т 


REPLICA 2 


мы SemiSync 
Slave plugin 
Relaylog 
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Настройка синхронной репликации 


Мастер 

> plugin_load_add = rpl semi_sync master=semisync master.so 
> rpl ѕеті ѕупс master enabled = 1 

> грі semi sync master timeout = 31536000000 


> грі semi_sync master wait for slave count = 1 


Реплика 
> plugin_load_add = rpl semi 5упс slave=semisync slave.so 


> rpl semi sync slave enabled = 1 
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Failover 


| Что должна сделать НА-утилита 2 
› Определить отказ мастера 
> Надежно закрыть старый мастер 
> Выбрать лучшую реплику 
> Повернуть все реплики Ha нее 


> Открыть новый мастер 


3/ 


Проблема 0: кто у руля ? 
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Решение (MySQL) 


DCS: 
Zookeeper, Etcd 


Health 
Status 


Health 
Status 


MySync 


PRIMARY көшесі 


Решение (Postgres) 


DCS: 
Zookeeper, Etcd 


Primary 


Lock Health 


Status 


Ра5упс 


PRIMARY келлі 


Ра5упс 
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Проблема 1: Dead, deader, deadest 


й Что считать отказом мастера? 
> Отказ железа 
> Отказ сети 
> OOM, crash 


> Перегрузка 


Решение 


| Отказ мастера - любая ошибка при SELECT 1, но... 


> 


> 


> 


Проверить дважды с разных хостов 
А работает ли репликация 2 
DELAY - проблема повторяєтся в течение минуты 


COOLDOWN - He genaem failover слишком часто 
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Проблема 2: replication lag 


PRIMARY REPLICA 1 
UUID1:1-1000 UUID1:1-1000 


SYNC, LAGGING 


REPLICA 2 


UUID1:1-998 
ASYNC, UP-TO-DATE 
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Решение 


| Выбираем реплику, на которой с max (Executed + Retrieved) 
GTIDset 


[ Как уменьшить replication_lag 2 
> Правильные индексы в таблицах 
> Небольшие транзакции 


> pt-online-schema-change вместо ALTER 
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Если доступа к приложению нет 2 


> 


> 


> 


Настройки MySQL 


slave гом/5 search_algorithms = INDEX ОСАМ,НАБН 5САМ 
slave parallel Туре = LOGICAL CLOCK 
slave parallel workers = 8 


іппоайб flush log at их commit=2 222 
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Проблема 3: потеря сетив процессе СОММІТ 


mysql> SHOW PROCESSLIST; 


ЖЖЖЖЖЖЖЖЖЖЖЖ K OK K K K K OK K K K K K K ok ok 4 row KK K K OK K K K K K K K K K K K OK K OK K K K K XK K K K 


Id: 39246 

User: admin 

Command: Killed 

Time: 256 

State: Waiting for semi-sync ACK from slave 
Info: commit 


KK K K OK K ok K K K K K K OK K K K K OK K XK K K K K K K Q row KK OK K OK K K K K K K K K K K K K K OK K K K K XK K K K 


Id: 39357 

User: admin 

Command: Query 

Time: 122 

State: Waiting for commit lock 
Info: set global read_only = ON 
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Решение 


й Рестарт сервера 


| Отключение semisync плагина 


> SET GLOBAL rpl semi sync master enabled = 0 


Смотри метод MYSQL BIN LOG::ordered commit 
47 


Проблема 4: лишний commit 


| Старый мастер 


> UUID1:1-1003 <= ooops... 


| Новый мастер 


> UUID1:1-1000,UUID2:1-33 
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Решение 


| Сервер при старте должен быть невидим для приложения 


> read only = ОМ 
> super read only = ОМ 


> offline mode = ON 


1 Если splitbrain действительно случился.. 


> rewind? gh-mysal-rewind, mariadb-binlog --flasnback 


> переналивка 
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Чтоеше требуется от НА-утилиты ? 


> switchover 
> Управление пої-НА-репликами 
> Слежениеза свободным местом 


> Закрытие отставших реплик 


За рамками 


| Высокая доступность - не только failover 
> Балансировка запросов / service discovery 
> Переналивка упавших / отставших XOCTOB 


> Резервное копирование 
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ждем вопросы 


Андрей Бородин Дмитрий Смаль 


DQ x4mmm @yandex-team.ru о mialinx@yandex-team.ru 
Zl x4mmm %] mialinx 


